Attention Is Not All You Need

您所在的位置:网站首页 attention is not all you need Attention Is Not All You Need

Attention Is Not All You Need

2024-01-21 15:53| 来源: 网络整理| 查看: 265

2017年的论文 《Attention is All You Need》 引入了基于注意力机制的 transformer 架构,标志着机器学习有史以来最大的突破之一。最近的一项研究提出了一种新的方法来研究自注意力(self-attention),它的偏置(bias)和秩崩溃(rank collapse)问题。

在自然语言处理(NLP)、语音识别以及最近的计算机视觉领域,基于注意力的结构已经被证明是改进机器学习应用的有效方法。但是关于 transformer 和注意力内部通用原理的研究很少。

在论文 《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》 中,Google 和洛桑联邦理工学院的一个研究团队提出了一种新的方法,阐明了自注意力网络(SAN)的操作和归纳偏置,并发现纯粹注意力随着深度以双倍指数方式衰减。

研究人员总结他们的工作如下:

系统地研究了 transformer 的组成部分,揭示了自注意力和反作用力之间的对立影响: 跳过连接(skip connection)和 MLP,分别促进和防止了 transformer 的秩崩溃。提出了一种通过路径分解(path decomposition)分析 SAN 的新方法,将 SAN 表示为一个浅层网络的集合(ensemble)。在普通 transformer 结构上实验来验证理论。

研究小组首先研究了禁用了跳过连接和 MLP 的 SAN 结构。他们认为 SAN 是一个有向无环图(directed acyclic graph),每个节点对应一个自注意力头,定向边连接连续层的头。在此基础上,他们建立了一个路径分解(path decomposition)来把一个多头 SAN 的行为描述为简单单头网络的组合。通过路径相互作用,他们观察到偏置意义不大,而且每个路径迅速收敛到一个行相同的秩为1的矩阵。当路径以指数方式增加时,有趣的部分来了: 每个路径随后以双倍指数(doubly exponentially)方式退化,导致产生一个秩为1的输出。

研究人员分别考虑了每条路径的行为,检查了前向过程中的残差变化(residual changes)。他们发现残差范数(residual norm)收敛到零的速度惊人地快(以立方倍率)。由于注意力矩阵的秩也取决于输入的秩,所以确认的立方倍率收敛速度比预期的要快得多。换句话说,更深的 SAN 会导致级联效应(cascading effect)。

为了更深入地理解 SAN 的结构,研究小组通过加入 SAN 缺少的三个关键 transformer 组件(跳过连接、 MLP 和层归一化(normalization))来扩展他们的分析。这项研究表明,带有启用跳过连接的 SAN 严重依赖短路径,表现得像一个浅层单头自注意力网络的集合。研究小组还发现,MLP 会抵消收敛,比如,随着 MLP 变得更强大,收敛速度会变慢; 而层归一化并不能减轻秩的崩溃。

研究小组进行了以下实验:

实际架构中的秩崩溃,检查流行的 transformer 架构 BERT、 Albert 和 XLNet 的残差。可视化不同架构的偏置,研究单层 transformer 在循环应用于预测简单的 2D 循环序列时的行为。通过序列记忆、学习排序和凸包(Convex hull)预测三个任务检验路径效率与路径长度的关系。

实验1的结果。三种模型训练前后沿深度残差的相对范数。纯注意力(SAN)迅速收敛到一个秩为1的矩阵。添加 MLP 块和跳过连接得到一个 transformer。跳过连接在缓解秩崩溃(即零残差)方面起着关键作用。

实验2的结果。将训练好的单层 transformer 模块循环应用于增加隐藏维度(水平方向)和跨结构变量(垂直方向)的模型中。两条光背景路径显示了两条训练轨迹,起始点分别为(-0.3, 0)和(0.3, 0)

实验3的结果。报告了每个令牌标签的测试集预测精度作为评价指标。为了确定有多少表达能力可以归因于短路径和长路径,研究人员检查了不同长度的路径子集(而不是整个 SAN)的性能。

第一个实验证实,当跳过连接被删除时,所有网络都会出现快速秩崩溃,而第二个实验表明,添加 MLP 或跳过连接可以阻止或大大减缓秩崩溃。最后一个实验支持了研究人员的假设,即 SAN 的表达能力主要来自短路径。

arXiv 论文地址:https://arxiv.org/pdf/2103.03404.pdf

原文:https://medium.com/syncedreview/attention-is-not-all-you-need-google-epfl-study-reveals-huge-inductive-biases-in-self-attention-fa3cdd060abe



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3